🤖 Освойте продвинутые методы NLP и работайте с LLM на высоком уровне
Хотите разбираться в архитектуре LLM, дообучать модели под свои задачи и применять самые передовые NLP-методы?
Курс «NLP. Advanced» научит вас работать с трансформерными моделями, адаптировать GPT, BERT, LangChain и RAG под реальные бизнес-кейсы, а также развертывать AI-решения.
Вы освоите передовые методики машинного обучения для NLP, получите опыт работы с cutting-edge технологиями и расширите карьерные перспективы.
🎁 Успейте записаться до старта курса и получите скидку до 15% по промокоду nlp_adv5
➡️ Оставьте заявку прямо сейчас и присоединяйтесь к группе: https://otus.pw/KzgT/
#реклама
О рекламодателе
Хотите разбираться в архитектуре LLM, дообучать модели под свои задачи и применять самые передовые NLP-методы?
Курс «NLP. Advanced» научит вас работать с трансформерными моделями, адаптировать GPT, BERT, LangChain и RAG под реальные бизнес-кейсы, а также развертывать AI-решения.
Вы освоите передовые методики машинного обучения для NLP, получите опыт работы с cutting-edge технологиями и расширите карьерные перспективы.
🎁 Успейте записаться до старта курса и получите скидку до 15% по промокоду nlp_adv5
➡️ Оставьте заявку прямо сейчас и присоединяйтесь к группе: https://otus.pw/KzgT/
#реклама
О рекламодателе
1. 30-Days-Of-Python — 30-дневный челлендж по основам Python.
2. Python Basics — азы Python для новичков, просто и с примерами.
3. Learn Python — справочник с кодом, пояснениями и практикой.
4. Python Guide — гайд по практикам, инструментам и сложным темам.
5. Learn Python 3 — руководство по Python 3 с практикой для начинающих.
6. Python Programming Exercises — 100+ задач по Python.
7. Coding Problems — алгоритмы и структуры данных для собесов.
8. Project-Based-Learning — Python через реальные проекты.
9. Projects — идеи проектов для прокачки навыков.
10. 100-Days-Of-ML-Code — ML на Python шаг за шагом.
11. TheAlgorithms/Python — алгоритмы и структуры данных на Python.
12. Amazing-Python-Scripts — полезные скрипты: от утилит до автоматизации.
13. Geekcomputers/Python — скрипты для сети, файлов и задач.
14. Materials — код и проекты от Real Python.
15. Awesome Python — топ фреймворков, библиотек и ресурсов.
16. 30-Seconds-of-Python — короткие сниппеты для быстрых решений.
17. Python Reference — скрипты, туториалы и лайфхаки.
#python #github #learning
Please open Telegram to view this post
VIEW IN TELEGRAM
Растите сильную команду. Топ-5 курсов Яндекс Практикума для IT
👾 Технологии меняются каждый день — проверено Яндексом.
Мы ощущаем перемены на своих проектах. Постоянные вызовы, новые инструменты, штормы на рынках. Знаем, как важно, чтобы команда быстро развивалась и адаптировалась к изменениям. Поэтому создаём актуальное обучение, которое соответствует реальным задачам IT-сферы.
Нам доверяют: 5000+ компаний уже обучили 36 000+ сотрудников в Яндекс Практикуме.
👉 Вот топ-5 курсов, которые выбирали компании для развития IT-команд в 2025 году:
— SQL для работы с данными и аналитики
— DevOps для эксплуатации и разработки
— Python-разработчик
— Архитектура программного обеспечения
— Управление командой разработки
— Навыки аргументации
👉Подобрать курс
Реклама, АНО ДПО “Образовательные технологии Яндекса”, ИНН 7704282033, erid: 2VtzqvjtMhs
👾 Технологии меняются каждый день — проверено Яндексом.
Мы ощущаем перемены на своих проектах. Постоянные вызовы, новые инструменты, штормы на рынках. Знаем, как важно, чтобы команда быстро развивалась и адаптировалась к изменениям. Поэтому создаём актуальное обучение, которое соответствует реальным задачам IT-сферы.
Нам доверяют: 5000+ компаний уже обучили 36 000+ сотрудников в Яндекс Практикуме.
👉 Вот топ-5 курсов, которые выбирали компании для развития IT-команд в 2025 году:
— SQL для работы с данными и аналитики
— DevOps для эксплуатации и разработки
— Python-разработчик
— Архитектура программного обеспечения
— Управление командой разработки
— Навыки аргументации
👉Подобрать курс
Реклама, АНО ДПО “Образовательные технологии Яндекса”, ИНН 7704282033, erid: 2VtzqvjtMhs
Forwarded from Machinelearning
Исследователи из Google Research представили ECLeKTic — новый бенчмарк, предназначенный для оценки способности больших языковых моделей (LLM) переносить знания между языками.
Исследование направлено на выявление того, насколько эффективно модели могут применять информацию, полученную на одном языке, для решения задач на другом.
Бенчмарк включает вопросы, сформулированные на одном языке, ответы на которые содержатся в соответствующих статьях Википедии. Эти вопросы затем переводятся на другие языки, для которых аналогичных статей нет. Таким образом, модели должны демонстрировать способность извлекать и применять знания, отсутствующие в целевом языке.
Оценка моделей: Испытания восьми современных LLM показали, что даже передовые модели испытывают трудности с межъязыковым переносом знаний. Это подчеркивает необходимость дальнейших исследований и улучшений в этой области.
Вместо простых вопросов используются тесты с множественным выбором, где неправильные ответы (дистракторы) специально сделаны очень похожими на правильный и правдоподобными. Чтобы выбрать верный вариант, модели нужно действительно понять нюансы на целевом языке, а не угадывать.
Минимизация "артефактов перевода": Вопросы тщательно создавались экспертами на 10 различных языках (включая арабский, хинди, японский, русский и др.). Они адаптированы культурно и лингвистически так, чтобы стратегия "перевести-решить-перевести обратно" работала плохо.
ECLECTIC – сложный тест: Он выявляет слабости в понимании, которые могут быть не видны на других бенчмарках.
Результаты показывают, что текущим LLM еще предстоит улучшить способность по-настоящему переносить и применять знания между языками.
@ai_machinelearning_big_data
#AI #ml #google #benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Google представила новую функцию "Discover Sources" для сервиса NotebookLM, позволяющую пользователям искать в Интернете релевантную информацию по запросу. Она позволяет задать целевую тему, после чего NotebookLM формирует коллекцию из 10 релевантных источников со всего интернета.
Discover Sources доступно для всех пользователей. Оно расширяет функциональность NotebookLM, интегрируя веб-поиск непосредственно в проекты пользователя.
📌 blog.google
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🦙 Встречайте, дамы и господа, LLaMA 4: мультимодальные MoE модели!
Llama 4 Omni разработана для понимания и обработки информации модальностей, а не только текста.
Доступна в 3х вариантах: Llama 4 Scout и Llama 4 Maverick и анонсированный Llama 4 Behemoth.
У Llama 4 Scout (109B) контекстное окно размером 10 М, 17B активных параметров, 16 экспертов, может быть запущена на 1ом GPU!
Llama 4 Maverick (400B) окно в 1M, 128 экспертов, 17B активных параметров.
У зверюги бегемота обещают окно в 2T!!! 16 экспертов, 288B активных параметров.
Сейчас выпущены только Scout и Maverick.
- Model Card
- Веса
- Релиз
@ai_machinelearning_big_data
Llama 4 Omni разработана для понимания и обработки информации модальностей, а не только текста.
Доступна в 3х вариантах: Llama 4 Scout и Llama 4 Maverick и анонсированный Llama 4 Behemoth.
У Llama 4 Scout (109B) контекстное окно размером 10 М, 17B активных параметров, 16 экспертов, может быть запущена на 1ом GPU!
Llama 4 Maverick (400B) окно в 1M, 128 экспертов, 17B активных параметров.
У зверюги бегемота обещают окно в 2T!!! 16 экспертов, 288B активных параметров.
Сейчас выпущены только Scout и Maverick.
- Model Card
- Веса
- Релиз
@ai_machinelearning_big_data
⚡️ Implement minimal-GPT from scratch.
MinimalGPT — это небольшое учебное пособие (гайд), в котором демонстрируется «упрощённая» реализация архитектуры GPT. На странице раскрываются основные принципы работы модели и приводится минимально необходимый код для её запуска. Основная идея заключается в том, чтобы показать, как устроена GPT‑модель на базовом уровне, без избыточного усложнения и обилия вспомогательных библиотек.
Внутри гайда обычно можно найти:
▪ Описание основных слоёв GPT (внимание, Feed-Forward блоки и т.д.)
▪ Минимальные примеры кода (часто на Python с использованием PyTorch или аналогичных фреймворков)
▪ Краткие пояснения к каждому этапу (инициализация слоёв, механизм attention, обучение/инференс)
▪ Рекомендации по расширению и дальнейшему совершенствованию кода
Таким образом, MinimalGPT служит отправной точкой для понимания того, как работает GPT, и даёт возможность собрать простейшую версию модели своими руками.
🔗 Читать
@machinelearning_interview
MinimalGPT — это небольшое учебное пособие (гайд), в котором демонстрируется «упрощённая» реализация архитектуры GPT. На странице раскрываются основные принципы работы модели и приводится минимально необходимый код для её запуска. Основная идея заключается в том, чтобы показать, как устроена GPT‑модель на базовом уровне, без избыточного усложнения и обилия вспомогательных библиотек.
Внутри гайда обычно можно найти:
▪ Описание основных слоёв GPT (внимание, Feed-Forward блоки и т.д.)
▪ Минимальные примеры кода (часто на Python с использованием PyTorch или аналогичных фреймворков)
▪ Краткие пояснения к каждому этапу (инициализация слоёв, механизм attention, обучение/инференс)
▪ Рекомендации по расширению и дальнейшему совершенствованию кода
Таким образом, MinimalGPT служит отправной точкой для понимания того, как работает GPT, и даёт возможность собрать простейшую версию модели своими руками.
🔗 Читать
@machinelearning_interview
🔥 «Упражнения по машинному обучению»
В этой книге более 75 упражнений. И она абсолютно БЕСПЛАТНА.
🔗 Книга
🔗 GitHub
@machinelearning_interview
В этой книге более 75 упражнений. И она абсолютно БЕСПЛАТНА.
🔗 Книга
🔗 GitHub
@machinelearning_interview
Российская языковая модель A-Vibe от Авито возглавила рейтинг легких ИИ-решений (до 10 млрд параметров) в независимом бенчмарке MERA.
Разработка команды классифайда обошла признанных зарубежных конкурентов — GPT-4o mini от OpenAI, Gemma 3 27B от Google, Claude 3.5 Haiku от Anthropic и Mistral Large.
Модель демонстрирует впечатляющие результаты работы с русским языком. В тестах генерации кода A-Vibe показала результат на 25% лучше, чем Gemini 1.5. При ведении диалогов она оказалась на 32% точнее Llama 3.1. А в анализе смысла текста превзошла Claude 3.5 Haiku на 23%.
Технические возможности A-Vibe позволяют ей одновременно обрабатывать до 32 тысяч токенов контекста. Это дает модели серьезное преимущество при работе с объемными документами и поддержании длительных осмысленных диалогов. Уже сегодня технология активно используется в сервисах Авито, помогая продавцам создавать качественные описания товаров и ускоряя коммуникацию в мессенджере платформы.
«Первое место доказывает, что оптимизированная архитектура и качественные данные могут обеспечить отличные результаты даже при небольшом размере модели. A-Vibe создавалось оптимальной по соотношению между качеством, скоростью работы и затратой ресурсов. Такой баланс позволяет обеспечивать быструю обработку запросов даже в периоды пиковой нагрузки и масштабировать технологию на всю аудиторию платформы», — отметил Андрей Рыбинцев, старший директор по данным и аналитике Авито.
До конца года Авито внедрит в свою нейросеть еще 20 сценариев, а в будущем может сделать ее общедоступной.
Познакомиться с рейтингом можно на сайте MERA. В фильтре «Размер модели» выберите «≥5B — 10B», чтобы получить рейтинг среди небольших моделей. Цифры Human Benchmark — это результат тестирования реальных людей.
Разработка команды классифайда обошла признанных зарубежных конкурентов — GPT-4o mini от OpenAI, Gemma 3 27B от Google, Claude 3.5 Haiku от Anthropic и Mistral Large.
Модель демонстрирует впечатляющие результаты работы с русским языком. В тестах генерации кода A-Vibe показала результат на 25% лучше, чем Gemini 1.5. При ведении диалогов она оказалась на 32% точнее Llama 3.1. А в анализе смысла текста превзошла Claude 3.5 Haiku на 23%.
Технические возможности A-Vibe позволяют ей одновременно обрабатывать до 32 тысяч токенов контекста. Это дает модели серьезное преимущество при работе с объемными документами и поддержании длительных осмысленных диалогов. Уже сегодня технология активно используется в сервисах Авито, помогая продавцам создавать качественные описания товаров и ускоряя коммуникацию в мессенджере платформы.
«Первое место доказывает, что оптимизированная архитектура и качественные данные могут обеспечить отличные результаты даже при небольшом размере модели. A-Vibe создавалось оптимальной по соотношению между качеством, скоростью работы и затратой ресурсов. Такой баланс позволяет обеспечивать быструю обработку запросов даже в периоды пиковой нагрузки и масштабировать технологию на всю аудиторию платформы», — отметил Андрей Рыбинцев, старший директор по данным и аналитике Авито.
До конца года Авито внедрит в свою нейросеть еще 20 сценариев, а в будущем может сделать ее общедоступной.
Познакомиться с рейтингом можно на сайте MERA. В фильтре «Размер модели» выберите «≥5B — 10B», чтобы получить рейтинг среди небольших моделей. Цифры Human Benchmark — это результат тестирования реальных людей.
Forwarded from Machinelearning
📕 Андрей Карпаты опубликовал новый пост- необычный путь распространения LLM, их влияние на людей и организации, причины разрыва и взгляд в будущее.
В нем он анализирует необычное распространение больших языковых моделей (LLM).
Вот его содержание:
В отличие от традиционных технологий, которые обычно проходят путь от государственных и военных структур через корпорации к индивидуальным пользователям, LLM сразу стали широко доступны обычным людям.
Это позволило моделям значительно расширить свои возможности в таких областях, как программирование, анализ данных и создание контента, без необходимости привлекать узких специалистов.
ChatGPT — самое быстрорастущее приложение в истории, у него 400 миллионов активных пользователей в неделю.
Люди используют его для написания текстов, программирования, перевода, обучения, анализа, исследований и генерации идей
Это не просто улучшение жизни— это мощный бустер возможностей человека.
И барьер для входа использования LLM невероятно низкий: модели бесплатны или дешевы, быстры, доступны всем через API или локально, и говорят на любом языке, включая сленг и эмодзи.
Никогда еще человек не получал такого технологического скачка так быстро.
Почему же эффект для корпораций и государственных институтов не такой весомый?
Во-первых, LLM дают "
А вот для человека, который обычно эксперт лишь в одном, LLM открывают новые горизонты: программировать, разбираться в юриспруденции, анализировать данные или создавать контент — все это теперь возможно без посторонней помощи.
Во-вторых, организации решают более сложные задачи: интеграции, устаревшие системы, безопасность, регуляции, координация.
Ошибки LLM тут куда опаснее — "вайб кодить" не выйдет.
В-третьих, есть инерция: бюрократия, культура компаний, переобучение — все это тормозит внедрение.
Пока LLM радикально меняют жизнь людей, а не организаций.
Мэри, Джим и Джо получают больше, чем Google или правительство США. Но что дальше? Если топовые модели станут сильно дороже и лучше, крупные игроки смогут "купить интеллект", и элита снова уйдет в отрыв.
Сегодня Билл Гейтс использует тот же GPT-4o, что и вы, но завтра его ребенок может учиться у GPT-8-pro-max, а ваш — у GPT-6-mini.
Сейчас мы находимся в уникальном моменте: будущее уже здесь, и технологии удивительно равномерно распределены. Будущее тут, и оно доступно для всех. Власть людям!
🔗 Оригинал
@ai_machinelearning_big_data
#AndrejKarpathy #influencer
В нем он анализирует необычное распространение больших языковых моделей (LLM).
Вот его содержание:
В отличие от традиционных технологий, которые обычно проходят путь от государственных и военных структур через корпорации к индивидуальным пользователям, LLM сразу стали широко доступны обычным людям.
Это позволило моделям значительно расширить свои возможности в таких областях, как программирование, анализ данных и создание контента, без необходимости привлекать узких специалистов.
ChatGPT — самое быстрорастущее приложение в истории, у него 400 миллионов активных пользователей в неделю.
Люди используют его для написания текстов, программирования, перевода, обучения, анализа, исследований и генерации идей
Это не просто улучшение жизни— это мощный бустер возможностей человека.
И барьер для входа использования LLM невероятно низкий: модели бесплатны или дешевы, быстры, доступны всем через API или локально, и говорят на любом языке, включая сленг и эмодзи.
Никогда еще человек не получал такого технологического скачка так быстро.
Почему же эффект для корпораций и государственных институтов не такой весомый?
Во-первых, LLM дают "
квази-экспертные
" знания: широкие, но неглубокие и ненадежные. Для организаций, где уже есть эксперты (инженеры, юристы, аналитики), это лишь слегка повышает эффективность. А вот для человека, который обычно эксперт лишь в одном, LLM открывают новые горизонты: программировать, разбираться в юриспруденции, анализировать данные или создавать контент — все это теперь возможно без посторонней помощи.
Во-вторых, организации решают более сложные задачи: интеграции, устаревшие системы, безопасность, регуляции, координация.
Ошибки LLM тут куда опаснее — "вайб кодить" не выйдет.
В-третьих, есть инерция: бюрократия, культура компаний, переобучение — все это тормозит внедрение.
Пока LLM радикально меняют жизнь людей, а не организаций.
Мэри, Джим и Джо получают больше, чем Google или правительство США. Но что дальше? Если топовые модели станут сильно дороже и лучше, крупные игроки смогут "купить интеллект", и элита снова уйдет в отрыв.
Сегодня Билл Гейтс использует тот же GPT-4o, что и вы, но завтра его ребенок может учиться у GPT-8-pro-max, а ваш — у GPT-6-mini.
Сейчас мы находимся в уникальном моменте: будущее уже здесь, и технологии удивительно равномерно распределены. Будущее тут, и оно доступно для всех. Власть людям!
🔗 Оригинал
@ai_machinelearning_big_data
#AndrejKarpathy #influencer
🚀 Релиз от NVIDIA: Llama-Nemotron-Ultra 253B!
Llama-Nemotron-Ultra — модель с 253B параметрами, специально заточенная под задачи reasoning .
📦 Что внутри:
- LLaMA 405B, радикально преобразованная с помощью NAS pruning
- Пост-тренинг с фокусом на reasoning: SFT + RL
- Вычисления в FP8 для производительности без потери качества
- Open weights + открытые данные
🧠 Подходит для сложных задач рассуждения, настройки под кастомные пайплайны и исследований в области AGI.
🔗 Попробовать: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
#LLM #NVIDIA #OpenWeights #Reasoning #RLHF #FP8 #AIresearch #HuggingFace
@machinelearning_interview - подписаться
Llama-Nemotron-Ultra — модель с 253B параметрами, специально заточенная под задачи reasoning .
📦 Что внутри:
- LLaMA 405B, радикально преобразованная с помощью NAS pruning
- Пост-тренинг с фокусом на reasoning: SFT + RL
- Вычисления в FP8 для производительности без потери качества
- Open weights + открытые данные
🧠 Подходит для сложных задач рассуждения, настройки под кастомные пайплайны и исследований в области AGI.
🔗 Попробовать: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
#LLM #NVIDIA #OpenWeights #Reasoning #RLHF #FP8 #AIresearch #HuggingFace
@machinelearning_interview - подписаться
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Вышел мощный ИИ-ресерчер от AlphaXiv
С ним можно сделать всё: от контрольной до научной статьи в журнал.🔥
Нововведения:
🔎 ИСКАТЬ любые научные источники по любой теме
🧠 ПОНЯТНО объяснять даже самые сложные статьи — просто загрузи PDF и задавай вопросы
📚 СОВЕТОВАТЬ, что почитать дальше, выделять тренды и разбирать каждый источник по полочкам
💻 РАБОТАТЬ с кодом из статьи прямо в окне — правь, оптимизируй, получай объяснения
📝 ДЕЛАТЬ автоконспекты — чёткие и подробные
🚀 ПОСТОЯННО обновляется — фичи прилетают регулярно
А теперь самое главное:
🧬 Deep Research — встроенный ИИ-агент, который за 1 минуту создаёт системный обзор по любой научной теме. Статьи, выводы, тренды — всё на месте.
Гениального ассистента забираем отсюда 👉 https://www.alphaxiv.org/assistant
С ним можно сделать всё: от контрольной до научной статьи в журнал.🔥
Нововведения:
🔎 ИСКАТЬ любые научные источники по любой теме
🧠 ПОНЯТНО объяснять даже самые сложные статьи — просто загрузи PDF и задавай вопросы
📚 СОВЕТОВАТЬ, что почитать дальше, выделять тренды и разбирать каждый источник по полочкам
💻 РАБОТАТЬ с кодом из статьи прямо в окне — правь, оптимизируй, получай объяснения
📝 ДЕЛАТЬ автоконспекты — чёткие и подробные
🚀 ПОСТОЯННО обновляется — фичи прилетают регулярно
А теперь самое главное:
🧬 Deep Research — встроенный ИИ-агент, который за 1 минуту создаёт системный обзор по любой научной теме. Статьи, выводы, тренды — всё на месте.
Гениального ассистента забираем отсюда 👉 https://www.alphaxiv.org/assistant
🔥 Открыта регистрация на Летнюю школу машинного обучения Сколтеха.
SMILES-2025 — это 12-дневный интенсивный курс, посвященный генеративным методам в ИИ. Школа организована Сколтехом в сотрудничестве с Харбинским технологическим институтом в Китае. SMILES-2025 пройдет с 14 по 27 июля 2025 года.
Соорганизатор летней школы — HIT, генеральный партнер — Альфа-Банк, научный партнер — Институт AIRI.
👉 Участие бесплатное на основе конкурсного отбора. Подробности и подача заявки.
Реклама. СКОЛКОВСКИЙ ИНСТИТУТ НАУКИ И ТЕХНОЛОГИЙ, СКОЛТЕХ. ИНН 5032998454.
SMILES-2025 — это 12-дневный интенсивный курс, посвященный генеративным методам в ИИ. Школа организована Сколтехом в сотрудничестве с Харбинским технологическим институтом в Китае. SMILES-2025 пройдет с 14 по 27 июля 2025 года.
Соорганизатор летней школы — HIT, генеральный партнер — Альфа-Банк, научный партнер — Институт AIRI.
👉 Участие бесплатное на основе конкурсного отбора. Подробности и подача заявки.
Реклама. СКОЛКОВСКИЙ ИНСТИТУТ НАУКИ И ТЕХНОЛОГИЙ, СКОЛТЕХ. ИНН 5032998454.